9.3 최신 경량화 기법 - 분리형 스케일 양자화(DSQ)와 효율적 선택적 재구성(ESG)

거대 언어 모델(LLM)의 패러다임이 트랜스포머(Transformer) 아키텍처의 독주 체제에서 상태 공간 모델(State Space Models, SSMs)로 다변화됨에 따라, 맘바(Mamba) 아키텍처는 그 중심에서 효율적인 대안으로 주목받고 있다. 트랜스포머가 어텐션 메커니즘(Attention Mechanism)의 이차적(Quadratic) 연산 복잡도로 인해 긴 시퀀스 처리에 구조적 한계를 드러내는 반면, 맘바는 선형(Linear) 시간 복잡도를 통해 긴 문맥에서도 일관된 추론 속도를 보장한다. 그러나 이러한 연산 효율성의 이면에는 메모리 대역폭이라는 새로운 병목이 존재한다. 특히 생성형 AI 서비스의 핵심인 토큰 생성(Token Generation) 과정에서 맘바 모델의 상태 캐시(State Cache)는 막대한 메모리 공간을 점유하며, 이는 모델의 실용적 배포를 저해하는 주요 요인으로 지적된다.1

본 장에서는 맘바 아키텍처의 구조적 특성에 최적화된 최신 경량화 기법인 Q-Mamba 프레임워크를 중점적으로 다룬다. Q-Mamba는 기존 트랜스포머 기반 양자화 방법론이 해결하지 못했던 SSM 고유의 상태 이상치(State Outlier) 문제와 순환 구조(Recurrence)의 학습 난이도 문제를 해결하기 위해, 분리형 스케일 양자화(Decoupled Scale Quantization, DSQ)와 효율적 선택적 재구성(Efficient Selectivity Reconstruction, ESG 또는 ESR)이라는 두 가지 혁신적인 기법을 제안하였다. 이들 기법은 사후 학습 양자화(Post-Training Quantization, PTQ) 방식을 기반으로 하여, 재학습의 부담을 최소화하면서도 메모리 사용량을 획기적으로 절감하는 성과를 달성하였다.1

1. 맘바 아키텍처의 메모리 병목과 상태 공간의 특이점

맘바 모델의 경량화를 논하기 위해서는 먼저 해당 아키텍처가 메모리를 소비하는 방식이 기존 트랜스포머와 어떻게 다른지, 그리고 왜 기존의 양자화 기법이 맘바의 상태 공간(State Space)에 적용되었을 때 실패하는지를 심층적으로 이해해야 한다.

1.1 상태 캐시(State Cache)의 기하급수적 증가

트랜스포머 모델의 효율성 저하가 주로 KV 캐시(Key-Value Cache)의 크기에서 기인한다면, 맘바 모델은 ‘상태(State)’ 자체가 메모리 병목의 원인이 된다. 맘바는 순환 신경망(RNN)과 유사하게 이전 시점의 모든 정보를 고정된 크기의 은닉 상태(Hidden State)에 압축하여 전달한다. 맘바-2(Mamba-2) 아키텍처를 기준으로, 상태 차원( $N$ )은 일반적으로 128로 설정되며, 모델의 깊이와 너비가 확장될수록 이 상태 정보를 저장하기 위한 메모리 요구량은 선형적으로 증가한다.

연구 결과에 따르면, 가중치(Weight)와 활성화(Activation) 값을 저비트로 양자화하여 모델 크기를 줄인다 하더라도, 추론 시 동적으로 생성되는 상태 캐시는 전체 메모리 소비의 약 79.6%까지 차지할 수 있음이 밝혀졌다.1 이는 맘바 모델의 경량화가 단순히 정적인 파라미터(Weight)를 압축하는 것에 그쳐서는 안 되며, 실행 시간(Runtime)에 발생하는 동적인 상태 텐서(State Tensor)를 얼마나 효율적으로 관리하느냐에 모델의 전체 성능이 좌우됨을 시사한다. 특히 제한된 VRAM을 가진 엣지 디바이스나 소비자용 GPU 환경에서 맘바를 구동하기 위해서는 상태 캐시의 압축이 필수불가결한 과제이다.

1.2 상태 공간의 이상치(Outlier)와 이중 차원성

기존의 양자화 연구들은 대부분 활성화 값(Activation)과 가중치(Weight)의 분포를 분석하고 이를 저비트 정수로 매핑하는 데 집중해왔다. 그러나 맘바의 상태 값( $h_t$ )에 대한 심층 분석 결과, 이들은 기존 트랜스포머의 활성화 값과는 다른 독특한 통계적 분포를 보이는 것으로 나타났다. 즉, 맘바의 상태 값은 채널(Channel) 차원과 상태(State) 차원 모두에서 극단적인 이상치(Outlier)를 포함하고 있다.2

이론적 분석에 따르면, 상태 $h_t$ 의 분산은 입력 투영(Input Projection) $x_t$ 와 상태 제어 파라미터 $B_t$ 의 상호작용에 의해 결정된다. 구체적으로, 상태의 분산은 채널 차원의 벡터 $\alpha_i$ 와 상태 차원의 벡터 $\beta_i$ 로 인수분해(Factorization)될 수 있다.
$\text{Variance}(h_t) \approx \alpha \cdot \beta^\top$
여기서 $\alpha_i = \|W_{i,:}^x\|_2^2$ 이며 $\beta_i = \|W_{i,:}^B\|_2^2$ 이다.1

이 수식이 시사하는 바는 명확하다. 상태 공간의 이상치는 무작위로 발생하는 노이즈가 아니라, 입력 투영 가중치( $W^x$ )와 상태 제어 가중치( $W^B$ )의 구조적 특성에서 기인한다는 것이다. 따라서 이상치는 특정 채널이나 특정 상태 차원에 국한되지 않고, 두 차원이 교차하는 지점에서 복합적으로 발생한다. 기존의 채널 단위(Per-channel) 양자화나 토큰 단위(Per-token) 양자화 방식은 단일 차원의 스케일링만을 고려하므로, 이러한 이중 차원 이상치(Dual-dimensional Outliers)를 효과적으로 제어할 수 없다. 이는 필연적으로 큰 양자화 오차(Quantization Error)를 유발하며, 결과적으로 모델의 문맥 이해 능력을 훼손하게 된다.

특성	트랜스포머 KV 캐시	맘바 상태 캐시 (State Cache)
주요 구성	Key, Value 행렬	은닉 상태 ( $h_t$ )
메모리 점유율	시퀀스 길이에 비례 (이차적/선형)	상태 차원( $N$ )에 비례 (고정 크기)
이상치 패턴	주로 채널 또는 토큰 단위 발생	채널 및 상태 차원 모두에서 발생
양자화 난이도	비교적 성숙된 기술 (Int8/Int4)	기존 기법 적용 시 급격한 성능 저하
최적화 목표	긴 시퀀스 처리 용량 확보	추론 시 메모리 대역폭 병목 해소

위 표에서 알 수 있듯이, 맘바의 상태 캐시는 트랜스포머의 KV 캐시와는 질적으로 다른 접근을 요구한다. Q-Mamba 프레임워크는 이러한 문제의식에서 출발하여, 상태 공간의 특수성을 반영한 **분리형 스케일 양자화(DSQ)**를 고안해냈다.

2. 분리형 스케일 양자화 (DSQ)의 메커니즘과 이론적 배경

분리형 스케일 양자화(Decoupled Scale Quantization, DSQ)는 맘바 상태 공간의 이중 차원 이상치 문제를 해결하기 위해 설계된 기법으로, 상태(State) 차원과 채널(Channel) 차원에 대해 서로 독립적인 스케일링 인자(Scaling Factor)를 적용하는 것이 핵심이다. 이는 이상치가 존재하는 차원을 분리하여 각각을 정밀하게 제어함으로써, 전체 텐서의 정보 손실을 최소화하는 전략이다.

2.1 ) DSQ의 작동 원리 및 수식적 정의

기존의 양자화 방식이 전체 텐서에 대해 하나의 스케일(Per-tensor)을 사용하거나 각 채널에 대해 하나의 스케일(Per-channel)을 사용하는 것과 달리, DSQ는 두 개의 스케일 벡터를 도입하여 이를 외적(Outer Product)함으로써 2차원 스케일 행렬을 생성한다.

주어진 고정밀도(FP16 또는 BF16) 상태 텐서 $h$ 에 대하여, 양자화 함수 $Q(h)$ 는 다음과 같이 정의된다 1:
$Q(h) = \left\lfloor \frac{h}{S_{channel} \cdot S_{state}^\top} \right\rceil \odot (S_{channel} \cdot S_{state}^\top)$
이 수식에서:

$S_{channel} \in \mathbb{R}^{D}$ : 채널 차원(Dimension $D$ )에 대한 스케일 벡터이다.
$S_{state} \in \mathbb{R}^{N}$ : 상태 차원(Dimension $N$ )에 대한 스케일 벡터이다.
$S_{channel} \cdot S_{state}^\top$ : 두 벡터의 외적을 통해 생성된 $D \times N$ 크기의 스케일 행렬이다.
$\lfloor \cdot \rceil$ : 반올림(Rounding) 연산을 의미한다.
$\odot$ : 요소별 곱셈(Element-wise multiplication)으로, 양자화된 정수 값을 다시 원래의 스케일로 복원(Dequantization)하는 과정이다.

이러한 이중 스케일링 방식은 텐서 내의 특정 요소가 채널 차원의 이상치에 해당하든, 상태 차원의 이상치에 해당하든, 혹은 두 가지 모두에 해당하든 상관없이 적절한 스케일링 값을 할당받을 수 있게 한다. 결과적으로 DSQ는 이상치에 의한 정보 왜곡을 방지하고, 4비트(4-bit)와 같은 초저정밀도 환경에서도 원본 데이터의 분포를 충실히 보존할 수 있다.

2.2 ) 강건한 스케일 산출 전략 (Scale Estimation)

스케일 벡터 $S_{channel}$ 과 $S_{state}$ 를 어떻게 계산하느냐는 양자화의 품질을 결정하는 중요한 요소이다. DSQ는 이상치에 대한 민감도를 줄이고 일반화 성능을 높이기 위해 차별화된 통계적 척도를 사용한다.

채널 스케일 ( $S_{channel}$ ): 채널 차원의 스케일을 결정할 때는 **평균 절대값의 제곱근(Square root of the mean absolute value)**을 사용한다. 일반적인 최대값(Max) 기준 스케일링은 단 하나의 극단적인 이상치로 인해 전체 채널의 해상도(Resolution)가 낮아지는 문제가 있다. 반면, 평균 기반의 척도는 이러한 이상치에 덜 민감하므로(Robust), 대다수의 정상적인 값들이 충분한 비트를 할당받아 정밀하게 표현될 수 있도록 돕는다.
상태 스케일 ( $S_{state}$ ): 채널 차원의 스케일링을 통해 데이터가 일차적으로 평활화(Smoothing)된 후, 상태 차원에 대해서는 **최소-최대 스케일링(MinMax Scaling)**을 적용한다. 이미 채널 스케일링을 통해 극단적인 값들이 어느 정도 보정되었으므로, 상태 차원에서는 남은 값들의 전체 범위를 최대한 활용하여 양자화 격자(Grid) 내에 데이터를 꽉 채우는 것이 유리하다. 이는 비트(Bit) 낭비를 방지하고 표현력을 극대화하는 전략이다.1

2.3 ) DSQ의 효용성과 하드웨어적 고려사항

실험 결과, DSQ를 적용한 맘바 모델은 기존 방식 대비 월등히 낮은 양자화 오차를 보였다. 특히 4비트 상태 양자화 설정(H4)에서도 성능 저하가 미미하다는 점은 DSQ가 상태 공간의 구조적 특성을 정확히 파악하고 있음을 증명한다.1

그러나 DSQ의 도입에는 하드웨어적 관점에서의 트레이드오프(Trade-off)가 존재한다. 추론 과정에서 두 개의 스케일 벡터를 관리하고 이를 실시간으로 연산에 적용해야 하므로, **PIM(Processing-in-Memory)**과 같은 특수 하드웨어 아키텍처에서는 추가적인 산술 연산과 로직 제어 비용이 발생할 수 있다.5 일반적인 GPU 환경에서는 이러한 오버헤드가 무시할 수준이지만, 극도로 제한된 연산 자원을 가진 환경에서는 DSQ의 복잡도가 실용성을 일부 제한할 수 있다는 점은 주지해야 할 사실이다. 하지만, 메모리 용량 절감이 가져오는 이득이 연산 오버헤드보다 훨씬 크기 때문에, 대다수의 배포 시나리오에서 DSQ는 매우 유효한 전략이다.

3. 효율적 선택적 재구성 (ESG)과 학습 전략

DSQ가 상태 표현의 정밀도를 물리적으로 보장하는 기술이라면, **효율적 선택적 재구성(Efficient Selectivity Reconstruction, ESG)**은 양자화된 모델이 맘바 고유의 기능적 특성인 ’선택성(Selectivity)’을 유지하도록 학습 과정을 제어하는 알고리즘이다. 논문에 따라 ESR로 표기되기도 하는 이 기법은 사후 학습 양자화(PTQ) 과정에서 발생하는 성능 손실을 최소화하기 위한 미세 조정(Fine-tuning) 단계에 해당한다.

3.1 ) 양자화와 선형 순환(Linear Recurrence)의 충돌

맘바 모델의 학습 및 추론 속도가 빠른 이유는 병렬 스캔(Parallel Scan) 알고리즘을 통해 순환 연산을 병렬화할 수 있기 때문이다. 그러나 병렬 스캔은 연산의 선형성(Linearity)을 전제로 한다. 양자화 함수(반올림 등)는 본질적으로 비선형(Non-linear) 연산이며, 이를 순환 구조 내에 삽입할 경우 선형성이 파괴되어 병렬 스캔을 사용할 수 없게 된다. 이는 양자화 인식 학습(Quantization-Aware Training, QAT)을 수행할 때 학습 속도를 현저히 떨어뜨리는 원인이 된다. 모델을 튜닝하기 위해 긴 시퀀스를 순차적으로(Sequential) 계산해야 한다면, 맘바의 장점인 고속 학습은 불가능해진다.

3.2 ) 마지막 타임스텝 기반 오차 시뮬레이션

ESG는 이러한 딜레마를 해결하기 위해 ’블록 단위 재구성(Block-wise Reconstruction)’과 함께 독창적인 양자화 시뮬레이션 스킴을 도입하였다. 핵심 아이디어는 학습 과정에서 전체 시퀀스를 매번 양자화하지 않고, 마지막 타임스텝에서만 양자화 오차를 시뮬레이션하는 것이다.2

ESG는 현재 단계의 양자화된 상태 $h_t^q$ 와 원본 상태 $h_t$ 간의 차이인 오차 $\delta_t = h_t^q - h_t$ 를 근사적으로 계산한다. 이는 이전 타임스텝들에서 발생한 양자화 오차가 누적되어 현재에 미치는 영향이 작다고 가정하거나, 이를 마지막 단계의 보정만으로 충분히 상쇄할 수 있다는 경험적 발견에 근거한다. 이 방식을 통해 ESG는 선형 순환 구조를 깨뜨리지 않으면서 병렬 스캔 알고리즘을 그대로 활용할 수 있게 되었으며, 결과적으로 매우 빠른 속도로 양자화 파라미터를 최적화할 수 있다.1

3.3 ) 선택적 유도 적응 (Selectivity Guided Adaptation, SGA)

ESG의 또 다른 핵심 요소는 미세 조정 대상을 전체 파라미터가 아닌, 맘바의 선택적 메커니즘을 관장하는 소수의 핵심 파라미터로 국한한다는 점이다. 이를 **선택적 유도 적응(SGA)**이라 명명한다.

학습 대상의 선별: SGA는 입력에 따라 동적으로 변하는 파라미터인 $B$ , $C$ , 그리고 $\Delta$ (Delta)만을 학습 가능한 상태(Learnable)로 유지한다. 나머지 선형 투영 가중치나 고정된 파라미터들은 동결(Frozen)된다.
파라미터 효율성: 학습 대상이 되는 $B, C, \Delta$ 는 전체 모델 파라미터의 약 2%에 불과하다. 이는 두 가지 중요한 이점을 제공한다. 첫째, 최적화해야 할 탐색 공간(Search Space)을 줄여 학습 수렴 속도를 높인다. 둘째, PTQ 과정에서 사용되는 소량의 보정 데이터(Calibration Data, 약 128~256 샘플)에 대해 모델이 과적합(Overfitting)되는 것을 방지한다.1
성능 보존의 원리: $B, C, \Delta$ 는 맘바 모델이 문맥 정보를 얼마나 오래 기억할지, 어떤 정보를 망각할지 결정하는 ‘게이트(Gate)’ 역할을 수행한다. 이 파라미터들은 모델의 ’지능’과 직결된 선택적 주의(Attention) 능력을 담당하므로, 양자화로 인해 발생한 노이즈에 맞춰 이들을 미세하게 조정해 주는 것만으로도 모델의 전체적인 성능을 원본에 가깝게 복원할 수 있다.

요약하자면, ESG는 (1) 마지막 타임스텝 시뮬레이션을 통해 훈련의 효율성을 확보하고, (2) 핵심 선택 파라미터(SGA)만을 튜닝하여 데이터 효율성과 일반화 성능을 동시에 달성하는 고도의 최적화 전략이다.

4. Q-Mamba 프레임워크의 실험적 검증 및 성능 분석

DSQ와 ESG가 결합된 Q-Mamba 프레임워크는 다양한 크기의 맘바 모델에서 그 유효성을 입증하였다. 특히 학계와 산업계가 주목하는 W8A8H4 설정(가중치 8비트, 활성화 8비트, 상태 캐시 4비트)에서의 성능 결과는 이 기술이 실제 서비스에 즉시 적용 가능함을 시사한다.

4.1 ) 실험 환경 및 설정

연구진은 Mamba2-2.7B 모델을 포함한 다양한 크기의 모델을 대상으로 실험을 진행하였다. 양자화 설정은 다음과 같이 매우 공격적인 압축률을 목표로 하였다.

가중치(Weights): 8-bit 정수
활성화(Activations): 8-bit 정수
상태 캐시(State Cache): 4-bit 정수

이러한 설정은 기존의 16-bit(FP16) 모델 대비 이론적으로 메모리 사용량을 절반 이하로 줄일 수 있는 구성이다.

4.2 ) 정량적 성과 분석

실험 결과, Q-Mamba는 메모리 효율성과 정확도 유지라는 두 마리 토끼를 모두 잡는 데 성공하였다.

성능 지표	결과 수치	해석
메모리 절감	약 50% 감소	4-bit 상태 양자화(H4)가 메모리 병목을 실질적으로 해소함.1
제로샷 정확도	2.13% 하락 (평균)	기존 양자화 기법들이 H4 설정에서 붕괴(Collapse) 수준의 성능 저하를 보이는 것과 대조적임.1
데이터 효율성	128 샘플 소요	대규모 재학습 없이 소량의 데이터와 몇 번의 에포크(Epoch)만으로 최적화 완료.4

특히 주목할 점은 2.13%의 정확도 하락폭이다. 이는 모델의 크기와 메모리 사용량이 절반으로 줄어든 것을 감안할 때, 실제 응용 환경에서 충분히 수용 가능한 수준의 손실이다. 또한, DSQ가 적용되지 않은 일반적인 양자화 방식(MinMax 등)은 동일한 4비트 설정에서 모델이 정상적인 언어 생성 능력을 상실하는 경우가 많았다는 점에서, DSQ와 ESG의 기여도는 결정적이다.

4.3 ) 비교 분석 및 한계점

Q-Mamba는 기존의 트랜스포머용 양자화 기법(예: SmoothQuant, GPTQ 등)과는 궤를 달리한다. 기존 기법들은 주로 선형 레이어(Linear Layer)의 가중치와 활성화 값에 초점을 맞추었으며, 상태 캐시(State Cache)라는 제3의 요소를 고려하지 않았다. 따라서 Q-Mamba는 이들과 경쟁 관계라기보다는 상호보완적인 관계에 있거나, SSM이라는 새로운 아키텍처를 위한 전용 솔루션으로 이해해야 한다.8

다만, 앞서 언급한 바와 같이 PIM 아키텍처에서의 연산 비용 문제, 그리고 4비트 이하의 초저정밀도(예: 2-bit)에서의 성능 검증 등은 향후 연구 과제로 남아 있다. 또한, SGA가 선택적 파라미터만을 학습한다는 점은 장점이자 동시에 모델의 다른 부분에 잠재된 최적화 가능성을 배제한다는 한계가 될 수도 있다.

5. 결론: 포스트 트랜스포머 시대를 위한 경량화의 이정표

분리형 스케일 양자화(DSQ)와 효율적 선택적 재구성(ESG)은 맘바 아키텍처가 가진 수학적, 구조적 특성을 깊이 있게 통찰하고 이를 바탕으로 설계된 맞춤형 기술이다. DSQ는 상태 공간의 통계적 분포(이중 차원 이상치)를 규명하고 이를 수학적으로 모델링하여 정보 손실을 최소화하였으며, ESG는 SSM의 연산 특성(병렬 스캔)과 기능적 특성(선택성)을 고려한 학습 전략을 통해 성능 복원을 가속화하였다.

이 두 기술의 등장은 단순히 맘바 모델의 파라미터를 줄이는 차원을 넘어선다. 이는 메모리 자원이 극도로 제한된 엣지 디바이스나, 초저지연(Ultra-low Latency)이 요구되는 실시간 처리 시스템에서 상태 공간 모델(SSM)이 트랜스포머를 대체하거나 강력한 경쟁자로 자리 잡을 수 있는 기술적 토대를 마련하였다는 데 큰 의의가 있다. 특히 W8A8H4와 같은 고효율 설정에서도 모델의 언어 이해 및 생성 능력이 유지된다는 사실은, 향후 초거대 AI 모델의 경량화 연구가 ’범용적 압축’에서 ’아키텍처 특화형 최적화’로 진화해야 함을 시사한다. 맘바가 포스트 트랜스포머 시대의 주역으로 확고히 자리 잡기 위해서는, 하드웨어 친화적인 구조 설계와 결합된 이러한 고도화된 양자화 기법의 지속적인 발전이 필수적일 것이다.

6. 참고 자료

Q-Mamba: Towards more efficient Mamba models via post-training quantization - ChatPaper, https://chatpaper.com/paper/177904
TOWARDS MORE EFFICIENT MAMBA MODELS VIA POST-TRAINING QUANTIZATION - OpenReview, https://openreview.net/pdf/1c7e10c8b02e5d50be6957f056d845dde2575456.pdf
Towards more efficient Mamba models via post-training quantization - ACL Anthology, https://aclanthology.org/2025.findings-acl.551/
Q-Mamba: Towards more efficient Mamba models via Post-Training Quantization | OpenReview, https://openreview.net/forum?id=AY1S52vr0a
Q-Mamba: Towards more efficient Mamba models via post-training quantization | Request PDF - ResearchGate, https://www.researchgate.net/publication/394273503_Q-Mamba_Towards_more_efficient_Mamba_models_via_post-training_quantization
Weixiang Xu’s research while affiliated with Chinese Academy of Sciences and other places, https://www.researchgate.net/scientific-contributions/Weixiang-Xu-2177515659
Findings of the Association for Computational Linguistics: ACL 2025, https://aclanthology.org/volumes/2025.findings-acl/
Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving - arXiv, https://arxiv.org/pdf/2507.10178
Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving - arXiv, https://arxiv.org/html/2507.10178v1